Le BIOM a été créé dans le script01. Il est cependant “brut”.

Etape de filtre sur l’abondance par échantillon et OTU

Somme de tous les reads et on applique un filtre de 10-5 afin de s’assurer que ce ne sont pas des artefacts Dans notre cas permet de filtrer les taxa avec des valeurs supérieures à 180 reads par OTU



Description du BIOM

Niveau d’abondance par échantillon

Table d’abondance
échantillon mean median min max
Biom 846 21339.08 5 0 2709474
Filter_Biom 846 21207.16 1092 181 2709474

Le niveau d’abondance semble hétérogène. Il faudra donc prévoir un procédé de rarefaction



Graphique d’abondance des échantillons

  • données complètes

  • données filtrées

Dorénavant nous ne travaillerons que sur données filtrées. Ne sert à rien d’aller au niveau Phylum ou infra car trop d’échantillons donc aucune couleur n’est visible Nous remarquons que le niveau d’abondance par échantillon est hétérogène de 25 000 en moyenne à 250 000.

Analyses effectuées mais retirées : J’avais fait des niveaux d’abondance par échantillon en fonction de différentes variables (sexe, satut tabagique…) mais ne sert à rien car ça équivaut à voir la profondeur et ce n’est pas biologiquement informatif donc enlevé.

Répartition des OTU par phylum

Var1 Freq
Actinobacteria 22
Bacteroidetes 223
Firmicutes 686
Fusobacteria 2
Proteobacteria 45
Synergistetes 9
Tenericutes 5
Verrucomicrobia 5


Etape de raréfaction


Visualisation de l’abondance en fonction des taxa

Les Firmicutes sont les bactéries majoritaires. Elles sont les plus abondantes suivies des Bacteroidetes


  • Bar plot abondance:
    Travaille sur données raréfiées afin de comparer données à la même échelle.



  • Abondance des firmicutes niveau famille au sein des échantillons

Les échantillons semblent assez homogènes dans la composition par famille.
Sur les données au niveau du genre rien ne se dégage quelque soit la catégorie (sexe, age, tabac…). Les échantillons semblent donc peu différents entre eux.
Il y a une grande diversité de bactéries et nous ne voyons pas de genre majoritaire quelque soit la variable. Pour l’ordre Clostrdiales est majoritaires quelque soit la variable prise (exemple ci dessous)

Composition en Firmicutes au niveau de l’ordre en fonction de l’âge



Alpha-diversité

Diversité intrinsèque à chaque échantillon

Graphique Covariable et tests statistiques

Exploration de l’impact de chaque covariable sur la diversité-alpha

Les différents indices:
* Shannon : représente à la fois le nombre d’espèces d’un milieu mais aussi la répartition des effectifs individuels au sein des espèces présentes.
* Simpson : mesure de régularité cad mesure la probabilité que deux individus pris au hasard appartiennent à la même espèce.
* Chao1 : tient davantage compte des espèces peu abondantes nécéssite de conserver singleton donc pas pris.

Age diffère significativement en terme d’observation d’OTU, mais également en terme de diversité en nombre d’espèces.

Pour la catégorie sexe : Pas de différence signicative pour le nbre d’OTU mais différence significative pour le nbre d’espèces.

Pour le statut tabagique: Observation significative ainsi que Shannon, nombre d’OTU et nombre d’espèce significativement différentes. InvSimpson 0.07.



Modèle Observed


Modèle shannon


Modèle InvSimpson


Conclusion au vu des différents tests sur données filtrées raréfiées:

  • Pour le modèle Observé Tabac Age et BMI significatif, SEX ns
  • Pour l’indice de Shannon toutes les variables sont significatives voir hautement significatives (age SEX)
  • Pour l’indice de InvSimpson les variables sauf tabac sont significatives voir hautement significatives (age SEX)
  • Aucune interaction n’est significative


Diversité Béta :

correspond à la différence de diversité des espèces entre plusieurs milieux Diversité entre échantillons : indice de dissimilarité (Bray et Curtis , de Jacard) Phylogénie (Unifrac) indice de Jaccard pour taxons rares et Bray-curtis pour les abondants.


#### Ordination sans contrainte: capture de la diversité peu importe d’où elle provient. Conclusion : Aucune tendance ne se dégage. Il n’y a pas de différence de diversité d’espèces entre les différents échantillons pour les catégories (age, sexe, tabac, bmi). Impossible de voir pour l’activité physique. La plage semble trop importante pour une coloration. Il faudrait les catégoriser


Représentation MDS (pour « Metric MultiDimensional Scaling » soit analyse multidimensionnelle métrique). La NMDS ne converge pas et NMDS déforme l’espace pour faire apparaitre des groupes éventuels. Du coup les distances apparentes ne sont pas fidèles aux distances réelles.

Quelque soit la variable utilisée, aucun structuration n’est identifiée. Les 2 premiers axes ne capturent que que 22% de la diversité avec la distance de Bray-Curtis.



Analyses complémentaires

Analyses non essentielles au vu des résultats précédents

Ordination avec contraintes

capture de la diversité issue de certaines covariables. Risque de ne rien voir car déjà rien ne ressort sans contrainte Changement de l’argument method en CAP (Constrained Analysis of Proximities) et indiquer quelle covariable peut expliquer cette diversité


Clustering Hierarchique

Aucune clusterisation des échantillons n’est visible. Si présence d’arbre phylo possibilité de faire avec en utilisant dist=“unifrac”.



PERMANOVA


Call:
vegan::adonis(formula = dist.bc ~ age + SEX + tabac + BMI + APhysGlobHParSem,      data = metadata, permutations = 999) 

Permutation: free
Number of permutations: 999

Terms added sequentially (first to last)

                  Df SumsOfSqs MeanSqs F.Model      R2 Pr(>F)    
age                4     1.732 0.43289  2.0403 0.00954  0.001 ***
SEX                1     1.273 1.27315  6.0007 0.00701  0.001 ***
tabac              2     0.672 0.33604  1.5839 0.00370  0.013 *  
BMI                1     0.318 0.31767  1.4973 0.00175  0.065 .  
APhysGlobHParSem   1     0.198 0.19769  0.9318 0.00109  0.552    
Residuals        836   177.370 0.21216         0.97691           
Total            845   181.562                 1.00000           
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Toutes les variables, à l’exception de l’activité physique, sont significatives. Cependant elles n’expliquent quasiment pas de variabilités < 1%. Très faible variabilité naturelle des échantillons, peut être dû à la “vrai” variabilité du microbiote.



Heatmap

Ne voyant pas de cluster, il n’est pas nécéssaire de faire une heatmap d’une variable en considérant les distances de Bray-Curtis. Quelque soit la tranche d’âge, il y a beaucoup de diversité. Ce sont les mêmes OTU qui sont présents dans tous les échantillons quelque soit la catégorie d’âge.

Zoom sur les 50 taxa les plus élevés:



Anlayses différentielles

Objectif : Voir si l’abondance de certaines espèces diffèrent entre les groupes

Sur les données sexe.
Avec un seuil de 5 % permet de ne récuperer que 30 OTU.

Sur les données âge.
Avec un seuil de5 % permet de ne récuperer que 45 OTU.


Conclusion

  • Beaucoup de bactéries dominées principalement par Firmicutes et Bacteroidetes.

  • Pas de genre spécifique à une catégorie

  • Grande diversité de bactéries au sein de chaque échantillon. Différences significatives pour le nombre d’OTU et d’espèces de bactéries entre les personnes de différentes catégories

  • Pas de différences majeures dans la composition du microbiote entre les catégories (fumeurs et non- ou ex-fumeurs ou entre “jeunes” et “séniors”). C’est probablement dû au fait que la variance intrinsèque de chaque groupe est forte et que la communauté type par exemple des fumeurs n’est pas très différente de celle des non-fumeurs.

  • Les différentes variables sont significativements différentes mais n’expliquent que très peu de variabilité